Loading...
机构名称:
¥ 1.0

在视觉变压器中,位置嵌入(PE)在捕获令牌顺序方面起着作用。然而,在Vi-Sion变压器结构中,由于将嵌入位置嵌入的结构简单地添加到令牌嵌入中,因此PE的增强性存在限制。通过将PE传递到每一层的PE并应用独立层正常化的令牌嵌入和PE来克服此限制。在本文中,我们确定了使用全球平均池(GAP)方法而不是类令牌时在层的结构中发生的冲突结果。为了克服这个问题,我们提出了MPVG,这可以最大程度地利用差距在层结构中PE的有效性。具体来说,我们确定了PE平衡令牌在每层结构中的嵌入值。此外,我们认识到PE的平衡作用在层结构上不足,我们通过通过MPVG最大化PE的有效性来解决这一问题。通过实验,我们将表现出PE扮演平衡的角色,并且具有这种平衡方向性的主导性会显着影响视觉变压器。结果,实验性的研究表明,MPVG在各种任务上跨越视觉变压器的现有方法。

arxiv:2502.02919v1 [cs.cv] 2025年2月5日

arxiv:2502.02919v1 [cs.cv] 2025年2月5日PDF文件第1页

arxiv:2502.02919v1 [cs.cv] 2025年2月5日PDF文件第2页

arxiv:2502.02919v1 [cs.cv] 2025年2月5日PDF文件第3页

arxiv:2502.02919v1 [cs.cv] 2025年2月5日PDF文件第4页

arxiv:2502.02919v1 [cs.cv] 2025年2月5日PDF文件第5页

相关文件推荐